检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于用户行为特征的多维度文本聚类

黎万英, 黄瑞章, 丁志远, 陈艳平, 徐立洋

计算机应用 2018, 38 (11): 3127-3131. DOI: 10.11772/j.issn.1001-9081.2018041357

摘要（912）

PDF （970KB）（484）

传统多维度文本聚类一般是从文本内容中提取特征，而很少考虑数据中用户与文本的交互信息（如：点赞、转发、评论、关注、引用等行为信息），且传统的多维度文本聚类主要是将多个空间维度线性结合，没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息，提出一种结合用户行为信息的多维度文本聚类模型（MTCUBC）。根据文本间的相似性在不同空间上应该保持一致的原则，该模型将用户行为信息作为文本内容聚类的约束来调节相似度，然后结合度量学习方法来改善文本间的距离，从而提高聚类效果。通过实验表明，与线性结合的多维度聚类相比，MTCUBC模型在高维稀疏数据中表现出明显的优势。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于狄利克雷多项分配模型的多源文本主题挖掘模型

徐立洋, 黄瑞章, 陈艳平, 钱志森, 黎万英

计算机应用 2018, 38 (11): 3094-3099. DOI: 10.11772/j.issn.1001-9081.2018041359

摘要（420）

PDF （1100KB）（461）

随着文本数据来源渠道越来越丰富，面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模，直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配（DMA）模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型（MSDMA）。通过考虑主题在不同数据源的词分布的差异性，结合DMA模型的非参聚类性质，模型主要解决了如下三个问题：1）能够学习出同一个主题在不同数据源中特有的词分布形式；2）通过数据源之间共享主题空间和词项空间，使得数据源间可进行主题知识互补，提升对高噪声、低信息量的数据源的主题发现效果；3）能自主学习出每个数据源内的主题数量，不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明，所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。

参考文献 | 相关文章 | 多维度评价